package com.shujia.core

import org.apache.spark.{SparkConf, SparkContext}

object Code12Sample {
  def main(args: Array[String]): Unit = {
    val sc = new SparkContext(new SparkConf().setMaster("local").setAppName("Mysql2Text"))

    /**
     * sample:
     *    可以对数据进行抽样，设置参数可以为： 是否有放回抽样，抽样样本比率（大概范围），以及随机种子
     *      添加了随机种子后，那么每次取到的结果一致
     *
     *  应用场景：
     *      Hive -> 数据倾斜 -> key在Reduce中分布不均匀 ->  找到哪些不均匀的Key -> 采样获取
     *
     */

    sc
      .textFile("scala_code/data/students.txt")
      .sample(
        false,0.02,
      ).foreach(println)



  }
}
